மூடப்பட்ட இணைய உள்ளடக்கத்தை ஆவணப்படுத்தல், பகுப்பாய்தல், காட்சிப்படுத்தல், தேடல்

Published on Author தண்பொழிலன்

pagenotfoundஒவ்வொரு கணப்பொழுதிலும் இணையத்தில் பெரும் எண்ணிக்கையிலான தகவல்கள் பதிவுசெய்யப்பட்டுக்கொண்டு இருக்கின்றன. வலைத்தளங்கள், வலைப்பதிவுகள், மன்றங்கள் மற்றும் சமூக வலைத்தளங்கள் என்பனவற்றில் அறிவியல், பண்பாட்டு, அரசியல் உட்பட்ட பல துறைகளைச் சார்ந்த முக்கிய தகவல்கள் இருக்கின்றன. தமிழ்ச் சூழலைப் பொறுத்தவரை, 1992 இல் ஆரம்பமான soc.culture.tamil usernet குழுமம் தொடங்கி, ஜியோசிட்டிஸ் (geocities), மன்றங்கள், வலைத்தளங்கள், வலைப்பதிவுகள் (blogs), அண்மைய டுவிட்டர் கீச்சுக்கள் (tweets) வரை விரிவான உள்ளடக்கம் உண்டு. ஏதேனும் ஒரு ஆய்வுப்பரப்பில், ஒரு தலைப்பை ஆய்வு செய்ய இவை இன்றியமையாத மூலவளங்கள் ஆகிவிட்டன.

ஆனால், அவை எல்லாமே எப்போதுமே பார்வையில் இருப்பது இல்லை. வலைப்பக்கங்களின் வாழ்க்கைக் காலம் சராசரியாக 2 ஆண்டுகள் ஆக இருக்கின்றது. நாளுக்கு நாள் பெருகிக்கொண்டிருக்கும் தகவல் குவியல்களுக்கு இடையே பழைய இணையத்தளங்கள் பல காரணங்களுக்காக மூடப்பட்டு அல்லது முடக்கப்பட்டு இயல்பாகவே மறைந்து போவதை நாம் உணருவதில்லை.

சாதாரணமாகவே கூகிளில் தேடும்போது மிகப்பழைய வலைத்தளங்களோ அல்லது எப்போழுதோ மூடப்பட்ட இணையத்தளங்களோ அங்கு காட்டப்படுவதில்லை என்பதைக் காணலாம். அங்கெல்லாம் சேமிக்கப்பட்டுள்ள ஆவணக் கோப்புக்களை ஆவணப்படுத்தி அணுக்கப்படுத்துவது அவசியமான ஒன்றாக மாறியிருக்கிறது.

webarchive

archive வலைத்தளத்தின் இடைவெட்டு

இணைய ஆவணகமான web.archive.org பெரும்பாலான வலைத்தளங்களை ஆவணப்படுத்தி உள்ளது. WARC வடிவில் இவற்றில் உள்ள விடயங்களை  ஆய்வது, தேடுவது இலகுவானதாக அமைவதில்லை. இதற்கு முக்கிய காரனம் இவை பெரும் கோப்புக்கள் (பெரும் தரவு) ஆகும். ஒரு சிறிய வலைத்தளம் கூட 1GB அளவான தரவைக் கொண்டிருக்கும். இவை பெரும்பாலும் கட்டமைக்கப்பட்ட வடிவமைப்பைப் பெருதும் கொண்டிருப்பதில்லை (unstructured).  மேலும் இவற்றை WARC வடிவத்தை வாசிக்கும் மென்பொருள் கருவிகள் மூலம் மட்டுமே அணுகி ஆராய முடியும்.

இணையத்தளங்களை ஆவணப்படுத்துவது, பொதுமக்களின் பயன்பாட்டுக்கு அணுக்கப்படுத்துவது என்பன தொடர்பான அறிமுகத்தை நாம் பெற்றிருப்பது நல்லது. வலை ஆவணப்படுத்தல், அணுக்கப்படுத்தல் பணிகளைப் பின்வருமாறு நான்காகப் பிரிக்கலாம்:

* ஆவணக் கோப்புக்களை உருவாக்கல் – creating WARC archival files of webpages
* உருவாக்கிய கோப்புகளை காட்சிப்படுத்தல் – playback of WARC files
* கோப்புத்தொகுதிகளை பகுப்பாய்தல் – Analyzing WARC files collections
* சுட்டிகளை உருவாக்குதலும் தேடலும் – Indexing and Searching

ஆவணக்கோப்புகளை உருவாக்குவது, காட்சிப்படுத்துவது தொடர்பாக நூலகம் நிறுவனம் ஏற்கனவே விரிவாக ஆராய்ந்திருக்கிறது. இது தொடர்பான தகவல்கள் இங்கு  உள்ளன.

பெருந்தரவு நுட்பங்களைப் பயன்படுத்தி WARC சேகரிப்பைப் பகுப்பாய்வு செய்ய முடியும். பெருந்தரவு நுட்பமான Apache Spark ஐ அடிப்படையாகக் கொண்டு உருவாக்கப்பட்ட Archives Unleased Toolkit இதற்கு பயன்படுகிறது.  (இது பற்றிய ஒரு விரிவான அறிக்கையை இங்கே பார்க்கலாம்: Analyzing Web Archives using Archives Unleashed Toolkit.  இந்த அறிக்கை பயன்படுத்தும் அப்பாச்சி சப்பிலின் Notebook இனை இங்கு பார்க்கலாம்).

Warclight எனும் வலைத்தளத்தில் வலை ஆவணச் சேகரிப்புகளுக்குச் சுட்டி உருவாக்கி அவற்றின் உள்ளடக்கத்தை நாம் தேட முடியும். (அந்த வலைத்தளம்) இங்கு, “மலையக இலக்கியம்” என்ற சொற்றொடர் இடம்பெறும் வலைப்பக்கத்தைக் கண்டுபிடிக்க வந்திருக்கிறோம் என்றால், மேலுள்ள பெட்டியின் அருகே ‘Content’ என்பதைத் தேர்ந்தெடுத்து, “மலையக இலக்கியம்” என்ற சொற்றொடரை உள்ளிட்டுத் தேடும் போது, அது அந்தச் சொற்தொடர் உள்ளடக்கத்தில் இடம்பெறும் பக்கங்களை மீட்டுத் தரும்.
hfch

மேற்கண்ட கருவியைப் பயன்படுத்தி நாம் தமிழில் முன்னர் வெளிவந்து தற்போது இணையத்தில் இல்லாத வலைத்தளங்களின் உள்ளடக்கத்தை தேடல் வசதியோடு மீண்டும் பயனர்களுக்கு கொண்டுவர முடியும். பழைய தமிழ் வலைத்தளங்கள் வெவ்வேறு எழுத்துருக்களில் இருக்கும் என்பது இங்கு ஏற்படும் குறிப்பான ஒரு சிக்கல். ஆனால் அந்த எழுத்துருக்களை நாம் ஒரு நிரல் கொண்டு ஒருங்குறிக்கு மாற்றித் தேடலில் இடம்பெறச் செய்ய முடியும்.

ஒரு நூலை, பத்திரிகையை, படத்தை, காணொளியை ஆவணப்படுத்துவது போன்று இணைய உள்ளடக்கங்கள் ஆவணப்படுத்தி அணுக்கப்படுத்துவது ஆய்வாளர்களுக்கும் பொதுமக்களுக்கும் ஒரு பெரும் அறிவு மூலத்தை கொண்டு செல்வதாக அமையும். எதிர்காலத்தில் இன்னும் வலைத்தளங்களின் எண்ணிக்கை அதிகரித்தபின்னர், இந்தத் தேடல் முறைமை இன்றியமையாத ஒன்றாக மாறும் என்பதில் இருவேறு கருத்து இருக்க முடியாது.

 

குறிப்பு: மேலே தரப்பட்டுள்ள வலை முகவரிகள் பரிசோதனைக்காக நிறுவப்பட்டவை.